论文|反馈网络
|极市平台论文原创编译|
本文来源自下面论文
编译作者:徐冰榕、尚剑
摘要
目前,计算机视觉领域最成功的学习模型一般都是通过学习连续的特征表示(successive representations),然后用一个decision layer来进行分类或识别。这种模型一般可以通过多层的前馈神经网络来实现,如ConvNets,其中的每一层都形成连续特征表示的一部分。但是,用反馈的方法同样也可以实现相同的效果,通过多次迭代,将前一次迭代的输出反馈输入到模型得到下一次的输出,从而得到多个连续的特征表示。
与前馈方法相比,反馈模型有以下优势:
可以在查询的时候得到早期的预测结果(early predictions);
它的输出自然地符合标签空间(比如分类)的分层结构;
它为Curriculum Learning提供了新的理论基础。
反馈神经网络得到的特征表示跟前馈神经网络完全不同,这也符合前面提及的反馈模型的优势。作者最后提出了一种基于反馈的一般学习模型,测试的结果比目前的前馈神经网络相当甚至更好。此外,作者还探究了反馈结构(比如忽略连接(skip connections))和模型设计选择(比如反馈长度(feedback length))中的几种不同机制。
介绍
本文提出的反馈网络模型的最终预测结果是通过多次迭代过程,根据输出损失进行调整,而非一次性预测。这种基于反馈的学习方法具有三个优势。
Early Predictions
如图1所示,前馈结构中,只有当信号传递到网络的最后一层时才会得出预测结果,而在反馈结构中,系统可以在迭代过程中预测。如图1,首先系统会在最开始的四分之一时间内预测出这个物体是载具,在四分之二的时间内判断出这是有轮载具,然后再判断是自行车,最后是公路自行车,这样在迭代过程中,就会得到多个预测结果,对比前馈结构只有一次预测结果,这种性质在实际应用中非常重要,比如无人驾驶汽车在高速上,发现前方的物体,不用等待最终精确的预测结果出来,而只用判断前方可能是一个行人就可以减速了。
Taxnomoy Compliance
另一个优点是反馈结构的预测结果在输出空间(甚至在还没有用任何分类规则来训练网络的时候)上会自动分类。如图1,早期的预测将会把目标分为几个比较粗略的大类,而进一步的预测将会将分类更加细化,这得益于这种迭代规则与这种由粗到精的表示分类方法的结合。这种反馈结构使系统的每一步迭代都对上一步迭代的输出结果进行预测,从而达到由粗到精的分类效果。
Episodic Curriculum Learning
对于前馈结构而言,预测结果是一次性输出的,所以要进行Curriculum Learning的话必须要根据复杂度把训练数据赋予一个相同完整的网络,把不同的Curriculum安插在每一次测试当中(比如第一次训练给一些简单的例子,以后几次再给难一些的)。作为对比,反馈试学习模型可以将Curriculum安插在一次测试中的任何一段,称为Episodic Curriculum Learning。
在本文提出的模型中预测过程被定义为一个共享的周期性运算,在每次迭代中,输出将被预测并且作为隐藏状态输入下一次迭代过程中,下次迭代过程将通过共享周期性运算以及隐藏状态作出进一步预测。其中隐藏状态中输出结果的方向性非常重要,否则整个网络将成为由周期性运算实现的前馈网络,所以本文通过反馈每一次迭代中的损失来训练网络进行预测。
方法
反馈预测可通过卷积递归神经网络模型实现,并在迭代过程中加入损失变量,具体过程可归纳为:在每次迭代过程中对图像进行卷积运算并且做出预测;由训练好的网络输出最优解,同时记录下目前输出的变换方向。如图2所示
Convolutional LSTM Formulation
作者所提出的反馈模型基于stacking ConvLSTM模型,其本质是将LSTM中的细胞用卷积结构代替。在计算ConvLSTM输出之前首先要计算input gate和 forget gate:
接下来计算cell gate:
可根据输出状态与cell gate计算出隐藏状态与输出:
模型中t时刻的交叉熵损失定义为:
上式将损失加入每一次迭代过程中,每一次迭代进行一次完整的预测并且通过隐藏状态传递输出信息到下一次迭代,使网络更加逼近精确的预测。
Feedback Module Length
反馈网络的结构如图三所示:
作者提出的网络结构非常灵活,可以选择ConvLSTM模块中前馈网络的数量或者用不同数目的ConvLSTM模块进行堆叠。我们可以根据单个ConvLSTM模块中前馈层(Conv + BN)的数量对反馈网络进行分类,即the local length of feedback。图3中的三种结构可以分为Stack-1,Stack-2,和Stack-All。Stack-i 的意思就是ConvLSTM中有i个前馈层。这决定了隐藏状态在整个网络上的分布。
Temporal Skip Connection
前馈网络中的忽略连接(skip connections)可定义如下:
t时刻出现的新输入表示为:
最终表示为:
即图2中的红线连接。
Taxonomic Prediction
反馈网络系统可以在迭代过程中给出预测,早期是粗略的分类,随着迭代的进行,可以实现精细的分类。
根据Softmax中的定义,识别对象属于某一类的概率:
属于更高级的大类的概率可以表示为其中各小类概率之和:
Episodic Curriculum Learning
反馈网络在第k次迭代过程中采用退火损失函数,则在第t次粗分类与细分类损失函数可表示为:
Computation Graph Analysis
在作者提出的递归模型中,第i次迭代过程中的第j层表示结果可由前一次(i-1)迭代结果的第j层以及第i次迭代的前一层(j-1)共同表示,即:
前馈网络与反馈网络的计算图对比如图4所示。
反馈网络的具体计算过程如图5所示。
实验结果
作者主要从CIFAR100、Stanford Cars 、和MPII Human Pose三个基准测试集上对本文提出的反馈网络的效果进行评估。比较的基准模型是ResNet和VGG。
CIFAR-100
CIFAR-100数据集中包含100个类别的图片,每一类600张图像。 100个类别分成20个大类,20个大类(粗分)和原始的100个类别(细分)组成一个两级的分类。
Feedback Module Length
在其他条件相同的情况下,从下表可以看出,Stack-2的效果最好。
Early Prediction
为了说明反馈网络在early predictions方面的优势,作者比较了不同网络结构的early predictions的结果,如下图。反馈网络要明显优于前馈网络,并且准确率逐渐提升。
Comparison with Feedforward Ensemble
反馈网络与多个前馈网络并行集成的结果比较:
Feedback vs No Feedback
作者还比较了反馈的影响,可以看出,反馈结构对前期即early predictions的影响比较大 。
Taxonomic Prediction
在最终的分类结果上,反馈网络的实验结果也优于单纯的前馈网络,如图7,8。并且反馈网络可以更早地得出正确的结果。
Curriculum Learning
表5中作者比较了两种不同的训练方式对分类结果的影响,fine-only loss和episodic coarse-tofine curriculum loss,即评估Curriculum Learning的影响。
Stanford Cars Dataset和Human Pose Estimation
同样地,在Stanford Cars Dataset和Human Pose Estimation这两个数据集上,反馈网络的效果也要比单纯的前馈网络效果好。
结论
本文主要对反馈网络进行了探究,相较于目前应用广泛的前馈网络,反馈网络的优势在于early prediction、taxonomy compliance和Episodic Curriculum Learning。反馈网络学习到的是从粗糙到精细的特征表示,这与前馈网络完全不同,但是效果更好。这种反馈网络可能会在不久的将来替代前馈网络更好地应用在计算机视觉领域。
版权所有,转载请联系授权
PS.由北京大学团委指导,极视角主办的高校计算机视觉算法邀请赛目前正在报名中,大奖等你来拿,点击阅读原文查看详情。